Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Identifieur interne : 000269 ( France/Analysis ); précédent : 000268; suivant : 000270

Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières

Auteurs : Abdel Belaïd [France] ; Y. Toussaint [France]

Source :

RBID : Pascal:01-0235226

Descripteurs français

English descriptors

Abstract

Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.


Affiliations:


Links toward previous steps (curation, corpus...)


Links to Exploration step

Pascal:01-0235226

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="a">Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</title>
<author>
<name sortKey="Belaid, A" sort="Belaid, A" uniqKey="Belaid A" first="A." last="Belaïd">Abdel Belaïd</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Alsace-Champagne-Ardenne-Lorraine</region>
<region type="old region" nuts="2">Lorraine</region>
<settlement type="city">Vandoeuvre-Lès-Nancy</settlement>
</placeName>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Alsace-Champagne-Ardenne-Lorraine</region>
<region type="region" nuts="2">Région Lorraine</region>
</placeName>
<orgName type="laboratoire" n="5">Laboratoire lorrain de recherche en informatique et ses applications</orgName>
<orgName type="university">Université de Lorraine</orgName>
<orgName type="institution">Centre national de la recherche scientifique</orgName>
<orgName type="institution">Institut national de recherche en informatique et en automatique</orgName>
</affiliation>
</author>
<author>
<name sortKey="Toussaint, Y" sort="Toussaint, Y" uniqKey="Toussaint Y" first="Y." last="Toussaint">Y. Toussaint</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Alsace-Champagne-Ardenne-Lorraine</region>
<region type="old region" nuts="2">Lorraine</region>
<settlement type="city">Vandoeuvre-Lès-Nancy</settlement>
</placeName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">01-0235226</idno>
<date when="2000">2000</date>
<idno type="stanalyst">PASCAL 01-0235226 INIST</idno>
<idno type="RBID">Pascal:01-0235226</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000720</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000073</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000698</idno>
<idno type="wicri:Area/Main/Merge">001F10</idno>
<idno type="wicri:Area/Main/Curation">001E10</idno>
<idno type="wicri:Area/Main/Exploration">001E10</idno>
<idno type="wicri:Area/France/Extraction">000269</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr" level="a">Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières</title>
<author>
<name sortKey="Belaid, A" sort="Belaid, A" uniqKey="Belaid A" first="A." last="Belaïd">Abdel Belaïd</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Alsace-Champagne-Ardenne-Lorraine</region>
<region type="old region" nuts="2">Lorraine</region>
<settlement type="city">Vandoeuvre-Lès-Nancy</settlement>
</placeName>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Alsace-Champagne-Ardenne-Lorraine</region>
<region type="region" nuts="2">Région Lorraine</region>
</placeName>
<orgName type="laboratoire" n="5">Laboratoire lorrain de recherche en informatique et ses applications</orgName>
<orgName type="university">Université de Lorraine</orgName>
<orgName type="institution">Centre national de la recherche scientifique</orgName>
<orgName type="institution">Institut national de recherche en informatique et en automatique</orgName>
</affiliation>
</author>
<author>
<name sortKey="Toussaint, Y" sort="Toussaint, Y" uniqKey="Toussaint Y" first="Y." last="Toussaint">Y. Toussaint</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>LORIA-CNRS, Campus Scientifique, B.P. 239</s1>
<s2>54506 Vandoeuvre-Lès-Nancy</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Alsace-Champagne-Ardenne-Lorraine</region>
<region type="old region" nuts="2">Lorraine</region>
<settlement type="city">Vandoeuvre-Lès-Nancy</settlement>
</placeName>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Article</term>
<term>Document structure</term>
<term>Information extraction</term>
<term>Labelling</term>
<term>Method</term>
<term>Morphological analysis</term>
<term>Optical character recognition</term>
<term>Segmentation</term>
<term>Structured document</term>
<term>Syntactic analysis</term>
<term>Table of contents</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Reconnaissance optique caractère</term>
<term>Etiquetage</term>
<term>Méthode</term>
<term>Analyse morphologique</term>
<term>Analyse syntaxique</term>
<term>Sommaire</term>
<term>Article</term>
<term>Segmentation</term>
<term>Extraction information</term>
<term>Structure document</term>
<term>Calliope</term>
<term>Document structuré</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Nous décrivons dans cet article une méthode d'étiquetage linguistique en vue de la reconnaissance de la structure des articles des tables de matières (TdM). Le résultat sert à fournir le serveur de tables de matières de Calliope, un outil de consultation automatique de la documentation à distance, réalisé en collaboration entre Xerox et l'INRIA. La méthode d'étiquetage opère sur un texte ASCII reconnu par OCR (Optical Character Recognition), comprenant des erreurs éventuelles de reconnaissance de caractères et de mise en page. Elle est initialisée par un étiquetage primaire des éléments textuels par référence à des dictionnaires. Les étiquettes significatives sont ensuite regroupées en syntagmes conduisant par réduction à des formes canoniques identifiantes du titre et des auteurs. Cet étiquetage permet de formuler des hypothèses d'extension syntaxique sur les termes inconnus et de les intégrer dans les syntagmes voisins. Pour les articles erronés, nous appliquons le modèle de structuration généré automatiquement à partir des articles bien identifiés. Le prototype étudié opère avec une grande satisfaction sur des TdMs de différentes mises en page et qualités de reconnaissance de caractères. Sans intervention manuelle, nous obtenons un taux de segmentation d'articles de l'ordre de 95.41% sur 38 revues scientifiques comprenant 2703 articles et un taux de 81.74% d'extraction de champs corrects.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>France</li>
</country>
<region>
<li>Alsace-Champagne-Ardenne-Lorraine</li>
<li>Lorraine</li>
<li>Région Lorraine</li>
</region>
<settlement>
<li>Nancy</li>
<li>Vandoeuvre-Lès-Nancy</li>
</settlement>
<orgName>
<li>Centre national de la recherche scientifique</li>
<li>Institut national de recherche en informatique et en automatique</li>
<li>Laboratoire lorrain de recherche en informatique et ses applications</li>
<li>Université de Lorraine</li>
</orgName>
</list>
<tree>
<country name="France">
<region name="Alsace-Champagne-Ardenne-Lorraine">
<name sortKey="Belaid, A" sort="Belaid, A" uniqKey="Belaid A" first="A." last="Belaïd">Abdel Belaïd</name>
</region>
<name sortKey="Toussaint, Y" sort="Toussaint, Y" uniqKey="Toussaint Y" first="Y." last="Toussaint">Y. Toussaint</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/France/Analysis
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000269 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/France/Analysis/biblio.hfd -nk 000269 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    France
   |étape=   Analysis
   |type=    RBID
   |clé=     Pascal:01-0235226
   |texte=   Une méthode d'étiquetage morpho-syntaxique pour la reconnaissance de tables de matières
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024